Quality of service aware data stream processing
نویسنده
چکیده
Kurzfassung Quality-of-Service-Aware Data Stream Processing Data stream processing in the industrial as well as in the academic field has gained more and more importance during the last years. Consider the monitoring of industrial processes as an example. There, sensors are mounted to gather lots of data within a short time range. Storing and post-processing these data may occasionally be useless or even impossible. On the one hand, only a small part of the monitored data is relevant. To efficiently use the storage capacity, only a preselection of the data should be considered. On the other hand, it may occur that the volume of incoming data is generally too high to be stored in time or–in other words–the technical efforts for storing the data in time would be out of scale. Processing data streams in the context of this thesis means to apply database operations to the stream in an on-the-fly manner (without explicitly storing the data). The challenges for this task lie in the limited amount of resources while data streams are potentially infinite. Furthermore, data stream processing must be fast and the results have to be disseminated as soon as possible. This thesis focuses on the latter issue. The goal is to provide a so-called Quality-ofService (QoS) for the data stream processing task. Therefore, adequate QoS metrics like maximum output delay or minimum result data rate are defined. Thereafter, a cost model for obtaining the required processing resources from the specified QoS is presented. On that basis, the stream processing operations are scheduled. Depending on the required QoS and on the available resources, the weight can be shifted among the individual resources and QoS metrics, respectively. Calculating and scheduling resources requires a lot of expert knowledge regarding the characteristics of the stream operations and regarding the incoming data streams. Often, this knowledge is based on experience and thus, a revision of the resource calculation and reservation becomes necessary from time to time. This leads to occasional interruptions of the continuous data stream processing, of the delivery of the result, and thus, of the negotiated Quality-of-Service. The proposed robustness concept supports the user and facilitates a decrease in the number of interruptions by providing more resources. Datenstromverarbeitung unter Beachtung von Qualitätsanforderungen Die Verarbeitung von Datenströmen erlangte in den letzten Jahren sowohl im akademischen als auch im industriellen Umfeld immer mehr Aufmerksamkeit. Zum Beispiel entstehen bei der Überwachung industrieller Prozesse durch geeignete Sensoren eine enorme Menge von Daten in kürzester Zeit. Eine Aufzeichnung und nachträgliche Auswertung ist nicht immer sinnvoll und vor allem mitunter nicht möglich. Zum einen sind nicht alle Daten relevant und es ist wichtig, eine geeignete Vorauswahl zu treffen, um Speicherplatz effizient zu nutzen. Zum anderen können – je nach Umfang der Datenerfassung – so viele Daten erzeugt werden, dass eine zeitgerechte Speicherung mit enormem technischen Aufwand verbunden wäre. Datenstromverarbeitung in diesem Kontext bedeutet, die Daten ohne explizite Speicherung (’on-the-fly’) durch Operationen angelehnt an die klassische Datenbanktechnologie zu verarbeiten. Die Herausforderungen dabei sind die nur begrenzt zur Verfügung stehenden Ressourcen bei potenziell unendlich langen Datenströmen sowie die Notwendigkeit der schnellen und frühzeitigen Ausgabe von Verarbeitungsergebnissen. Letzterem widmet sich die vorliegende Arbeit. Ziel ist es dabei, eine vom Anwender festgelegte Dienstgüte (’Quality-of-Service’, QoS) für den Verarbeitungsprozess einzuhalten. Dabei werden zunächst geeignete QoS-Merkmale wie maximal zulässige Ausgabeverzögerung und minimal notwendige Ausgabedatenrate definiert. Danach wird ein Kostenmodell zur Berechnung der benötigten Verarbeitungsressourcen bei gegebener Dienstgüte abgeleitet. Auf dieser Basis erfolgt eine Einplanung der einzelnen Verarbeitungsoperationen; in Abhängigkeit der geforderten Dienstgüte und der im System verfügbaren Ressourcen kann das Gewicht zwischen den einzelnen Ressourcen bzw. zwischen den einzelnen QoS-Merkmalen verschoben werden. Eine Einplanung von Ressourcen setzt genaue Kenntnis über die Charakteristik der Verarbeitungsoperationen und der eintreffenden Datenströme voraus. Da die Kenntnis der Datenströme in den meisten Fällen nur auf Erfahrungswerten beruht, ist eine Änderung der Planung und damit eine Revision der Ressourcenreservierung von Zeit zu Zeit notwendig, was zu einer Unterbrechung der kontinuierlichen Datenstromauswertung und der zugesicherten Dienstgüte führt. Das in der Arbeit vorgestellte Robustheitskonzept dient als Unterstützung für den Anwender und ermöglicht ihm, die Unterbrechungen der Datenstromauswertung durch Zugabe von Ressourcen zu verringern.
منابع مشابه
Quality of Service-Driven Stream Mining
Scalable stream processing systems have to continuously manage changing resources efficiently, which is usually achieved by applying best-effort approaches on the level of processing operations. Thus, several authors have recently dealt with the problem of resource-aware stream processing, proposing methods and techniques capable of adapting to changing resources, both on the system and operato...
متن کاملSynergy: Sharing-Aware Component Composition for Distributed Stream Processing Systems
Many emerging on-line data analysis applications require applying continuous query operations such as correlation, aggregation, and filtering to data streams in real-time. Distributed stream processing systems allow in-network stream processing to achieve better scalability and quality-of-service (QoS) provision. In this paper we present Synergy, a distributed stream processing middleware that ...
متن کاملData Stream Analysis for Location-Aware Collaborative Information Retrieval
We propose a new approach for enhancing collaborative information retrieval by means of incorporating positional data for a location-aware personalized retrieval process. In our framework, the collaboration between users will be established by building communities based on matching user attributes in a uniform user model. This allows for incorporating automated intra-community collaboration int...
متن کاملTowards collaborative data reduction in stream-processing systems
We consider a distributed system that disseminates high-volume event streams to many simultaneous monitoring applications over a low-bandwidth network. For bandwidth efficiency, we propose a collaborative data-reduction mechanism, ‘group-aware stream filtering’, used together with multicast, to select a small set of necessary data that satisfy the needs of a group of subscribers simultaneously....
متن کاملOperator Scheduling in a Data Stream Manager
Many stream-based applications have sophisticated data processing requirements and real-time performance expectations that need to be met under asynchronous, time-varying data streams. In order to address these challenges, we propose novel operator scheduling approaches that specify (1) which operators to schedule (2) in which order to schedule the operators, and (3) how many tuples to process ...
متن کاملTuning QoD in stream processing engines
Quality of Service (QoS) and Quality of Data (QoD) are the two major dimensions for evaluating any query processing system. In the context of data stream management systems (DSMSs), multi-query scheduling has been exploited to improve QoS. In this paper, we are proposing to exploit query scheduling to improve QoD in DSMSs. Specifically, we are presenting a new policy for scheduling multiple con...
متن کامل